Computer Vision Engineer и Data Scientist
Добро пожаловать в моё портфолио! Здесь вы можете найти информацию о моих проектах, демонстрации и описания.
Сайт портфолио |
Видеовизитка |
Github
Пилотная версия серверной части системы "DataMind" для анализа PDF-документов (договоров, актов, счетов, счет-фактур и т.д.) с использованием OCR и LLM. Система извлекает номер, дату, реквизиты, контрагентов и классифицирует документ, обеспечивая REST API и удобный HTML-интерфейс.
Технологии: Python 3.12, FastAPI, Docker, EasyOCR, Tesseract, Ollama, Qwen3, DeepSeek, Gunicorn, Nginx, Poetry, OpenCV.
Примеры API:
# Массовая загрузка документов:
curl -X POST http://x.x.x.x/api/upload \
-F "files=@/путь/Акт.pdf" \
-F "files=@/путь/Договор.pdf"
# Получение результата:
GET http://x.x.x.x/api/result/{pdf_id}
# Скачивание JSON:
GET http://x.x.x.x/download/{pdf_id}.json
Результаты:
Проект направлен на автоматизацию контроля содержания ядер подсолнечника в шелухе на производстве. Использованы классические методы компьютерного зрения (бинаризация и фильтрация). Изначально выявлена высокая корреляция (до 0.98) процента белых пикселей с лабораторными измерениями содержания ядер, однако дополнительная перепроверка командой заказчика на кратковременных выбросах показала ограниченность подхода и необходимость дальнейших исследований с применением моделей глубокого обучения.
Технологии: Python, OpenCV, Aravis, Pandas, NumPy
Выводы и перспективы: Необходима дальнейшая разработка с использованием машинного обучения и автоматической калибровки для повышения устойчивости и точности метода.
"Система подсчета автомобильного трафика по полосам движения в реальном времени с трекингом и классификацией на базе YOLO и Raspberry Pi."
Технологии: YOLO, Raspberry Pi, OpenCV, Python
Извлечение ключевой информации из изображений книг. Обрабатывает около 3000 запросов в день.
Технологии: OCR, LLM, FastAPI, Python
Реставрация лиц и улучшение качества видео с помощью GAN в рамках рабочего проекта в компании. Работа с моделями lipsync для синхронизации мимики с аудио.
Технологии: Python, Wav2Lip, YOLOv5, tortoise-TTS, GFPGAN, GAN, VideoReTalking, Roop
Email: alnibl88@gmail.com
GitHub: Посетить мой профиль
Telegram: @Alnibl
Сайт портфолио: https://alnibl.github.io/Portfolio/